11 research outputs found

    Détection automatique de sons bien réalisés

    Get PDF
    Colloque avec actes et comité de lecture. nationale.National audienceGiven a phonetic context, sounds can be uttered with more or less salient acoustic cues depending on the speech style and prosody. In a previous work we studied strong acoustic cues of unvoiced stops that enable a very reliable identification of stops. In this paper we use this background idea again with a view of exploiting well realized sounds to enhance speech intelligibility within the framework of language learning. We thus designed an elitist learning of HMM that make very reliable phone models emerge. The learning is iterated by feeding phones identified correctly at the previous iteration into the learning algorithm. In this way models specialize to represent well realized sounds. Experiments were carried out on the BREF 80 corpus by constructing well realized phone models for unvoiced stops. They show that these contextual models triggered off in 60% of stops occurrences with an extremely low confusion rate

    Segmentation automatique de corpus de parole continue dédiés a la synthèse vocale

    No full text
    Lia segmentation de grands corpus est une tâche indispensable dans la réalisation de nombreux systèmes de communication Homme-Machine comme les systèmes de synthèse de la parole et de reconnaissance vocale. Cette segmentation se doit d'être la plus précise et la plus proche de la segmentation manuelle. Certaines techniques automatiques permettent d'acquérir une précision acceptable dans certaines applications. Parmi ces techniques, il existe une approche standard basée sur les modèles de Markov cachés (HMM). Cette approche est notre référence. Néanmoins, dans des applications comme la synthèse vocale, cette technique automatique reste insuffisante et ne garantit pas une très bonne qualité de la parole synthétique. Pour cette raison, des vérifications manuelles faites par des experts humains sont appliquées à la segmentation de la parole. Ces vérifications sont fastidieuses et très coûteuses. Ce travail de thèse propose des solutions pour réduire, voire éliminer ces vérifications et par conséquent faciliter la création de voix de synthèse. Dans un premier temps, nous proposons une solution générique et efficace pour la segmentation de grands corpus. Cette approche est basée sur la fusion de plusieurs segmentations et permet de réduire de presque 60\% le nombre d'erreurs par rapport à la segmentation standard par HMM lorsqu'on utilise une phonétisation correcte du corpus de parole. Ensuite, nous étudions la détection des erreurs de segmentation dans le but d'alléger la tâche de vérification manuelle. Cette détection des erreurs de segmentation est réalisée avec des mesures de confiance déduites de certains algorithmes utilisés pour fusionner les segmentations. Enfin, nous traitons le problème de la correction des erreurs de phonétisation. Cette étude est une première étape pour traiter le cas où notre système de segmentation basé sur la fusion utilise une phonétisation erronée.RENNES1-BU Sciences Philo (352382102) / SudocBREST-Télécom Bretagne (290192306) / SudocSudocFranceF

    Brandt's GLR method & refined HMM segmentation for TTS synthesis application

    No full text
    International audienceIn comparison with standard HMM (Hidden Markov Model) with forced alignment, this paper discusses two automatic segmentation algorithms from different points of view: the probabilities of insertion and omission, and the accuracy. The first algorithm, hereafter named the refined HMM algo-rithm, aims at refining the segmentation performed by stan-dard HMM via a GMM (Gaussian Mixture Model) of each boundary. The second is the Brandt's GLR (Generalized Likelihood Ratio) method. Its goal is to detect signal dis-continuities. Provided that the sequence of speech units is known, the experimental results presented in this paper sug-gest in combining the refined HMM algorithm with Brandt's GLR method and other algorithms adapted to the detection of boundaries between known acoustic classes

    Modèle GMM et algorithme de Brandt pour la correction de la segmentation de la parole par HMM

    No full text
    International audienceOn compare les performances de deux algorithmes de segmentation automatique. Le premier, nommé "HMM amélioré", affine la segmentation produite par les modèles de Markov cachés (HMM). Le deuxième est l'algorithme de Brandt qui vise, quant à lui, à détecter les ruptures de stationnarité. Le premier algorithme requiert la connaissance a priori de la phonétisation, le second non. Étant donné que l'algorithme de Brandt commet des insertions et des omissions, ce qui n'est pas le cas du HMM amélioré, on introduit une généralisation du taux de segmentation correcte (TSC) afin de comparer ces deux algorithmes. Les mesures expérimentales des TSCs permettent d'évaluer une limite supérieure des performances de l'algorithme de Brandt et suggèrent de combiner ces deux méthodes avec d'autres algorithmes adaptés à la séparation des classes acoustico-phonétiques

    Application de l'analyse multi-résolution à la segmentation de corpus de parole dédiés à la synthèse vocale

    No full text
    International audienceApplication de l'analyse multi-résolution à la segmentation de corpus de parole dédiés à la synthèse vocal

    Modèles GMM et algorithme de brandt pour la correction de la segmentation de la parole par HMM

    No full text
    - On compare les performances de deux algorithmes de segmentation automatique. Le premier, nommé "HMM amélioré", affine la segmentation produite par les modèles de Markov cachés (HMM). Le deuxième est l'algorithme de Brandt qui vise, quant à lui, à détecter les ruptures de stationnarité. Le premier algorithme requiert la connaissance a priori de la phonétisation, le second non. Étant donné que l'algorithme de Brandt commet des insertions et des omissions, ce qui n'est pas le cas du HMM amélioré, on introduit une généralisation du taux de segmentation correcte (TSC) afin de comparer ces deux algorithmes. Les mesures expérimentales des TSCs permettent d'évaluer une limite supérieure des performances de l'algorithme de Brandt et suggèrent de combiner ces deux méthodes avec d'autres algorithmes adaptés à la séparation des classes acoustico-phonétiques

    Coopération entre méthodes locales et globales pour la segnmentation automatique de corpus dédiés à la synthèse vocale

    No full text
    International audienceThis paper introduces a new approach for the automatic segmentation of corpora dedicated to speech synthesis. The main idea behind this approach is to merge the outputs of three segmentation algorithms. The first one is the standard HMM-based (Hidden Markov Model) approach. The second algorithm uses a phone boundaries model, namely a GMM (Gaussian Mixture Model). The third method is based on Brandt's GLR (Generalized Likelihood Ratio) and aims to detect signal discontinuities in the vicinity of the HMM boundaries. Different fusion strategies are considered for each phonetic class. The experiments presented in this paper show that the proposed approach yields better accuracy than existing methods

    Cooperation between global and local methods for automatic segmentation of speech synthesis corpora

    No full text
    International audienceThis paper introduces a new approach for the automatic segmentation of corpora dedicated to speech synthesis. The main idea behind this approach is to merge the outputs of three segmentation algorithms. The first one is the standard HMM-based (Hidden Markov Model) approach. The second algorithm uses a phone boundary model, namely a GMM (Gaussian Mixture Model). The third method is based on Brandt's GLR (Generalized Likelihood Ratio) and aims to detect signal discontinuities in the vicinity of the HMM boundaries. Different fusion strategies are considered for each phonetic class. The experiments presented in this paper show that the proposed approach yields better accuracy than existing methods
    corecore